#AI 視訊
字節家的搖錢樹,阿里騰訊都想搶
科技大廠既眼紅AI視訊的好生意,沉重的算力消耗也讓人望而卻步。AI短劇帶來的極致成本優勢與工業化生產效率,引爆了資本熱情,也讓AI視訊賽道格局重構。4月初,一匹黑馬殺出:視訊生成模型HappyHorse-1.0在第三方測評平台Artificial Analysis登頂,文生視訊Elo得分1333、圖生視訊Elo得分1392,雙雙超越字節跳動Seedance 2.0與快手可靈,成為不容忽視的新變數。4月10日中午,阿里下場“認領”HappyHorse為“ATH事業群”旗下的AI創新事業部自研,API將在4月30日開放。此前,阿里並非視訊生成的核心玩家。但3月16日,阿里新成立以Token 為核心的“ATH事業群”後,提升多模態能力變成了拉高Token效率的抓手——而HappyHorse可視為這場戰略大轉向的重磅成果之一。不只阿里,科技巨頭正在視訊生成賽道集體壓境。憑藉Seedance系列的生成質量與成熟商業化,字節跳動已構築起顯著壁壘。據瞭解,火山引擎面向企業開放的Seedance API介面,有些機構得到的最低年消費門檻高達1000萬元。以高門檻開放API的底氣,來自市場的極度供不應求。《中國企業家》獲悉,在火山引擎近期的招商會上,許多城市與火山引擎和視訊生成業務洽談合作,有城市為此投入了數千萬、上億元資金,將算力支援作為招商引資的重要配套。另一巨頭騰訊也已下場。知情人士向《中國企業家》透露,騰訊挖走了Seedance開發團隊中的數名核心成員,計畫在5月推出混元視訊大模型新版本,與Seedance正面對壘。“5月的視訊模型賽道,將會格外熱鬧。”01 阿里認真了HappyHorse亮相之前,阿里雖有通義萬相視訊模型,但表現始終不溫不火。作為大模型生態的附屬功能,萬相此前在清晰度、運動連貫性、長視訊穩定性等核心指標上,與Seedance、快手可靈等有明顯差距,也未打通專屬商業化場景。這一次,阿里好像認真了。HappyHorse採用150億參數,將文字、視訊、音訊三種模態Token置於同一序列聯合建模,從底層解決了音畫不同步、語氣與表情不匹配等問題。“它的物理模擬更貼近真實環境。”一位測評人士告訴《中國企業家》。另外,HappyHorse原生支援七國語言唇形同步,詞錯誤率顯著降低。同時,它在成本與速度上表現優異:單張H100生成5秒1080p視訊約38秒,DMD-2蒸餾技術將去噪步驟壓縮到了8步。但HappyHorse的短板同樣突出。測評人士表示,在完成複雜動作與多人互動時,HappyHorse易出現肢體錯亂、軌跡不穩。相比於Seedance,HappyHorse更擅長鏡頭呈現,不擅長動作敘事。在應用方面,HappyHorse的API尚未開放,在內測中,其支援的時長僅為5~10秒,場景上限較低,更適合做短影片、廣告、AI漫劇素材,還難以支撐劇情長片。其本地部署也有門檻,需配備H100或A100顯示卡,消費級顯示卡無法運行。阿里突然在視訊模型戰場投入火力,意欲何為?相關人士表示,HappyHorse誕生於淘天未來生活實驗室,或許意味著阿里希望其能與電商場景碰撞融合。阿里擁有完整的商品、商家、交易與廣告生態,但商品視訊一直是中小商家的痛點:場景搭建、拍攝剪輯成本高,白底圖難以展現賣點。而AI視訊可批次生成多版本、多場景、多語言內容,大幅降低了創作門檻。更關鍵的是,阿里的商品詳情、使用者評價、搜尋行為、轉化資料、直播表現等全鏈路資訊,也可反向訓練電商專屬視訊能力,讓HappyHorse成長為懂電商、能帶貨的內容生產引擎。但這條商業閉環要跑通,除了技術攻堅,還必須先解決阿里的算力問題。接近阿里的人士向《中國企業家》透露,目前阿里內部GPU分配非常緊張。“此前,像月之暗面作為阿里雲大客戶,雖然與Qwen存在競爭,還是能獲得比較充足的算力。現在阿里要支援基模研發、電商、雲服務多條戰線,未來要重新考慮GPU的投入產出比了。”而視訊生成是算力消耗大戶,如果HappyHorse逐步開放推廣,算力需求更將指數級增長。這匹黑馬能跑多快、多遠,很大程度上取決於阿里能否破解算力這一核心瓶頸。02 Seedance的好生意被盯上了儘管挑戰重重,各大廠商仍爭相湧入AI視訊賽道,只因這是一門想像空間極強的生意。目前,紅果短劇等平台收一部劇的最高價格約2000元/分鐘,一部常規短劇的時長約120分鐘,價格約24萬元。而市場上AI短劇的外包製作報價已經低至400元一分鐘,甚至有團隊用自動化工具實現了一天800~1000分鐘的漫劇內容產出。巨大的成本優勢和生產效率,讓AI短劇成為資本追逐的熱點。有AI視訊製作公司負責人告訴《中國企業家》,短短半個月,就有好幾家資本來談收購、併購,目前給他們的估值已超5億元,但他們和合夥人都覺得,這個出價還不夠“美麗”。更有地方政府直接找上門來,希望直接獨家買斷公司的AI漫劇自動化生成工具。Agent技術的進展,也正讓一人公司(OPC)大量湧現。幾個擅長高效使用AI工具的員工,便能頂得上過去一個甚至幾個團隊的工作量。各地政府敏銳地捕捉到了這一趨勢,紛紛對AI視訊、AIGC、AI短劇推出算力補貼、內容獎勵、園區集聚等扶植政策,吸引OPC進入。2月27日,武漢東湖高新區發佈“微短劇八條”,對重大產業項目最高支援5000萬元,爆款短劇單部獎勵50萬元。3月10日,上海市徐匯區發佈《“AI+微短劇”產業扶持意見》,對頭部企業最高給予1000萬元發展支援,同時發放最高100萬元算力券、100萬元語料券,並為OPC減免工位費用。3月13日,深圳市施行新版微短劇扶持政策:AIGC微短劇單項目最高資助200萬元。需求的旺盛和政策扶植,讓字節成為最早嘗到甜頭的公司。據《中國企業家》瞭解,雖然火山引擎向大型影視公司、內容製作公司、特定機構等開放的Seedance API介面“白名單”,有些機構被要求“最低消費”1000萬元/年,客戶仍趨之若鶩。接近火山引擎的人士告訴《中國企業家》,地方政府已將算力扶持作為招商引資的重要配套。一些AI短劇公司以“拼盤”接入API,不少算力費用由政府出面解決,以吸引相關公司落地。“有些城市採購了火山3000萬、7000萬,甚至過億的費用,用於內容扶植。當然其產出的內容也將對本地稅收和GDP產生極大拉動,這個帳很好算的。”清晰可見的變現路徑,疊加千億級的市場增量,點燃了巨頭間的競爭熱情。阿里、騰訊紛紛加碼AI視訊賽道,試圖從字節手中分走一杯羹。接近騰訊的相關人士向《中國企業家》透露,混元視訊模型其實早就有了,“只是效果很差”。近期,騰訊痛下決心,“開出高薪,差不多把Seedance開發組整個挖走了”。新款模型大約5月上線,有望和Seedance掰掰手腕,在短時間內實現技術突破。依託騰訊生態,混元新視訊模型還有望深度融入到視訊號的內容生產、分發、商業化全鏈路,放大騰訊的內容生產力與商業變現空間。03 視訊模型的高風險抉擇雖然所有人都看到了AI視訊在短劇、電商、廣告等領域打開的兆級商業潛力,但這條賽道的燒錢速度,也遠超想像。投入矛盾與定價分化,以及擺在巨頭面前的規模化盈利困境,正在考驗著各家的平衡智慧。雖然火山引擎的收入不菲,但其算力成本負擔依然沉重,收入中的絕大部分,都要用來採購GPU和支付電力成本。4月,火山引擎總裁譚待告訴《中國企業家》:“我們去年已經修改了商業計畫,把目標提升了不少。但目前我們還沒有做3年的盈利規劃,暫時沒有這方面的具體安排。”OpenAI關停Sora,更給狂熱的市場潑下一盆冷水。視訊生成的算力消耗,是大模型的上百倍甚至上千倍,即便全球最具財力的科技公司,也難以承受這種無底洞式投入。OpenAI雖宣稱,關停Sora是為了將資源轉向企業智能體、編碼工具與具身智能等方向,但業內普遍認為,成本與付費嚴重倒掛才是核心原因:Sora單條1080p的視訊生成成本約0.5~1美元,而使用者平均付費意願不足0.1美元,根本無法支撐持續營運。更深層的挑戰,還來自於科技大廠技術路線的高風險抉擇。業內人士向《中國企業家》指出:多模態任務過度消耗算力,在Token用量已經暴漲的情況下,廠商有再多算力依舊不夠燒,要把算力留給誰,就成了關鍵問題。由於忌憚視訊的無底洞式算力投入,Google始終不敢大規模開放API,也未推出獨立的視訊生成C端應用。“去年Google的多模態路線備受推崇,但今年便在Agent浪潮下被Anthropic趕超,現在只能說勉強留在牌桌上。大模型的核心技術路線,往往需要提前一兩年佈局,效果卻要滯後顯現。有時候真的像玄學。”行業成本與收入失衡,近期利益和遠期發展,迫使所有玩家重新審視視訊模型的商業模式與定價邏輯,這也直接催生了行業內的定價策略分化。摩根大通曾判斷:頭部領先模型可以維持溢價,追趕者則不得不通過降價搶佔市場份額。Sora停服後,字節率先選擇漲價。4月8日,即夢宣佈:基礎、標準、高級會員的月度積分分別從1080、4000、15000下調至725、2210、6160,積分縮水近六成,相當於變相漲價。相比之下,Google和快手則選擇用降價換市場:Google在3月底放出的Veo 3.1 Lite版本,將720p視訊生成價格壓至0.05美元/秒。可靈緊隨其後,推出會員限時8折優惠,部分圖片生成功能甚至完全免費。定價的兩極分化,本質上是競爭烈度的直接體現。長期來看,平台、API、廣告、電商都只是外層變數,決定勝負的關鍵因素仍然是:強化模型本身的同時,誰能在效果和成本之間找到最佳平衡點,誰能結合自身生態,找到不可替代的落地場景。 (中國企業家雜誌)
新華社18秒視訊,讓美國前高官“焦慮”了
美國國土安全部前代理部長查德·沃爾夫近日在福克斯新聞網發表一篇文章,寫了很長。而這篇長文針對的,竟是一部僅有18秒的AI視訊。這個視訊在一個月前,即3月9日,由新華社在海外社交媒體發佈,被中國駐美大使館等廣泛轉發。視訊題目是《Shield of Americas, or shackles of Americas(“美洲之盾”還是“美洲之籠”)?》,揭示美國發起的“美洲之盾”峰會及倡議,損害拉美國家獨立自主,破壞地區和平穩定。沃爾夫的文章囉囉嗦嗦講了很多,其實就是以下幾點:第一,美國應該警惕中國用AI工具瓦解美國的影響力;第二,中國深化和拉美務實合作,在美國“後院”形成戰略支點,對美國國家安全構成重大威脅;第三,為維護自身地位,美國應普及美式AI工具,加強對華科技交流審查,以遏制中國影響力。一個小影片,竟讓他嚴重焦慮,確實是小題大作了。再看事實。事實是,美國企圖借所謂“美洲之盾”,組建美國主導的地區安全合作機制,為介入拉美國家內政提供便利。很多拉美政要或學者,對此看得很清楚。古巴國家主席迪亞斯-卡內爾說,所謂“美洲之盾”峰會是“帶有新殖民主義性質”的會議。美國辦這個會的目的,就是讓一些拉美國家接受美國的軍事幹涉。巴西總統魯拉最近說,美國就是想“再次殖民我們”。這也是為什麼,美方高調吹噓的這個“具有歷史意義的會”,巴西、墨西哥、哥倫比亞三個拉美地區重要國家的領導人一致缺席。新華社的18秒視訊,揭示的是事實本質。目前,這個視訊在海外社交平台瀏覽量已經超過150萬,有厄瓜多媒體人評論說:“中國媒體對‘美洲之盾’的解讀很準確。”查德·沃爾夫曾在川普首個總統任期擔任美國國土安全部代理部長,現任美國全球戰略諮詢公司副董事長,並在川普陣營核心智庫——美國優先政策研究所主管國土安全、移民與西半球政策研究。但沃爾夫及他這個圈子裡的人發表的涉華文章,完全沒有嚴肅學術研究之風,充斥著“中國就是威脅、中國做啥都錯、要堅定遏制中國”的陳詞濫調。可見,沃爾夫之流以各種藉口鼓吹“中國威脅”論,連18秒的AI視訊也要東拉西扯一通。 (新華網)
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
Sora 死了,享年 6個月
曾經封神的 AI 視訊模型 Sora 就這麼沒了。前幾天,OpenAI 官方親自發文告別 Sora:應用關停、API 關停、視訊功能不再接入 ChatGPT。聽聞這一消息,有網友直接把 Elon Musk “墓碑梗圖”搬出來祭奠。評論區更是“人類迷惑行為大賞”:有人艾特創始人 Sam Altman 問“到底在幹嘛”。有人直接開噴“那我們憑什麼信你下一個產品”,還有人直接吐槽“死之前也不開源一下。”還有人很淡定:“沒事,還有別家能用。”老狐還記得,2024 年初 Sora 剛出來的時候,幾乎是“核爆級出圈”,堪稱“工業革命”。那會兒大家還在卷文生圖,它直接把“電影級視訊生成”甩到你臉上。雨水打在玻璃上的折射、人物走路的慣性、鏡頭推進的節奏,那種感覺不是“ AI 在畫圖”,是“ AI 在拍電影”。Sam Altman 一邊發 demo,一邊持續加碼預期。全網一度覺得這玩意兒,遲早要幹掉影視工業一部分。再後來,產品上線,會員專屬,邀請碼炒到飛起。再再後來,Sora 2 發佈,補齊音畫同步、角色對話、分鏡控制,甚至去年 9 月做了獨立 App。到這一步,其實路徑已經很明顯了,它不止想做工具,它是想做“ AI 時代的內容平台”。換句話說,它想成為 AI 版抖音。但問題也恰恰出在這。一開始大家玩得很開心,“把自己丟進電影裡”確實很爽。第一次:臥槽好牛;第二次:再試一個;第三次:……好像也就這樣。然後就沒有然後了。這不是技術問題,是典型的“ demo 型產品”困境,它證明了“能做”,但沒有建立“要一直用”的理由。新鮮感一過,使用者就散,留不住,也養不出習慣。相關資料顯示,Sora APP 的 30 天使用者留存率僅為 1%,60 天留存率直接歸零。與此同時,版權開始紛紛找上門。日本內容機構發函,好萊塢開始緊張。那怕後來 OpenAI 拉來了 迪士尼,給了 IP 授權,開放漫威、皮克斯、星戰這些大殺器,看起來像是“終於要商業化了”。但是劇情出現反轉,到今年 1 月份,Sora 的下載量已暴跌 45%。再往後就更乾脆了:Sora 一關,迪士尼同步撤退,合作終止、投資取消,一起按下暫停鍵。你說這是產品問題嗎?不完全是。真正壓垮它的,其實是更現實的一件事:算力。做視訊太貴了,有測算說,Sora 一天燒的錢在千萬美元等級,一年下來就是幾十億美元的等級。一個使用者生成一段視訊,背後燒掉的資源,夠 ChatGPT 回答幾十次甚至更多問題。為了控製成本,OpenAI 不得不把免費使用者每日生成額度從 30 個削減到 6 個。這樣下來,進一步削弱了普通使用者的使用意願,加速了留存崩塌。同時,Google Gemini、Meta,以及國內的可靈、即夢等競品相繼推出視訊生成功能,使用者分流加速,Sora 的壓力驟增。走到這一步,問題就很直接了,那個賺錢就保留那一個。於是再看 OpenAI 最近的一系列動作,就完全順理成章:整合產品線做“超級應用”,All in 程式設計和生產力,把算力、團隊、資源都往能賺錢的地方集中。甚至有消息稱,為了給下一代模型騰算力,像 Sora 這種高消耗、低回報的業務,優先順序直接被往後排。說白了,這不是“做不出來”,是“沒必要做了”。聽起來冷血,但在 IPO 前,砍掉浪漫、留下現金流,是所有公司的必修課。回頭看,Sora 確實在 AI 視訊領域開了個好頭,只不過如今主角換了。字節跳動 Seedance 2.0 在卷真實世界模擬,水、布料、微表情,全在往“像真人拍的”逼近。快手 Kling 3.0 已經把商業閉環跑通,幾千萬創作者、幾億條視訊,直接悶聲賺大錢。這裡有個很關鍵的差異,Sora 是在“創造一個新場景”,而這些產品,是在“吃已有場景”。中國有短影片、電商、微短劇這套完整生態,模型一出來,立刻就有人用、有人反饋、有人變現。這是一個天然飛輪,而 Sora 當初做獨立App,本質是在從 0 開始搭生態。沒有創作者體系,沒有分發管道,沒有內容土壤。技術再強,也很難跑起來。可見,AI 視訊這件事,已經從“誰模型更強”,變成“誰生態更完整”。AI 行業,也已然從“炫技階段”,進入“算帳階段”。 (科技狐)
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
《吳宗憲跨縣力挺徐欣瑩 竹北竹東問政會爆滿、陪掃夜市拜票》國民黨新竹縣長參選人、立委徐欣瑩15日傍晚在竹北、竹東分別舉辦問政說明會,國民黨宜蘭縣長候選人、立委吳宗憲也親自來到現場為徐欣瑩助講,也陪同竹北夜市掃街拜票。吳宗憲說,現在執政黨「不潑髒水不會選舉」,徐欣瑩從政一路走來清清白白,相信徐在年底大選絕對不怕民進黨的抹黑造謠,也最有機會為國民黨守護新竹縣藍天,懇請新竹縣鄉親一定要支持「會贏的人」徐欣瑩。兩場問政會即便在周日舉辦,現場依舊人聲鼎沸,竹北場破千人出席,竹東場更是擠爆活動中心。甫通過國民黨宜蘭縣長黨內初選的立委吳宗憲也現身力挺。他說,為了徐欣瑩,即便雪隧塞車三個小時,還是要前來站台,就是希望正派、清白的人選能真正得到肯定。吳宗憲說,政府存在的目的就是要帶給人民幸福,如同新加坡政府強調誠信是基本要求。徐欣瑩不但正直、清廉、更值得信任,且說到做到。若我們期待台灣政治越來越乾淨,就應該全力支持願意做事且品格操守皆經得起檢驗的徐欣瑩。他也相信,鄉親絕對有智慧來分辨誰才是國民黨最適合的新竹縣長人選,吳宗憲還提到,民進黨選舉很厲害、不潑髒水不會選舉,當時他初選通過後,民進黨就頭很痛;同樣的,徐欣瑩和他一樣,一路走來清白乾淨,無懼抹黑,也絕對不怕民進黨造謠,也相信從政背景正派正直、且可以受到外界全面檢驗的徐欣瑩,在年底大選對民進黨時有更大的機會為國民黨獲得勝利。徐欣瑩致詞則用流利客語和國語侃侃而談,說明過去擔任兩任議員、兩任立委,為地方爭取上百億預算。這次參選新竹縣長,就是為了守護新竹縣的陽光政治和國民黨改革火種。未來擔任縣長也要加碼照顧包含竹東、竹北的全縣鄉親長輩和年輕家庭,提出包含敬老愛心卡由500元加碼至1,000元,並開放生活消費使用;針對所得稅20%以下的 65歲以上長者,全面補助健保自負額;推動「AI遠距視訊醫療」與「AI醫療專車」,以打破城鄉醫療落差等務實政見。徐欣瑩也強調「教育政策是重中之重」,新竹縣家庭家長常面臨育兒資源與教育的壓力,他承諾上任後將立刻增加幼兒園與2歲專班名額,並布建臨時托嬰托育系統,讓年輕家庭安心養育。對於中小學生,她主張讓孩子從小受AI教育薰陶,立即實現「人人有平板」,確保下一代站在世界最前面。
剛剛,蘋果祭出地表最強AI PC,頂配6萬5,M5 Max芯核彈AI性能暴漲4倍
蘋果一切向著AI,性能暴漲價格也暴漲。智東西3月4日消息,繼3999元用上蘋果A19晶片iPhone後,剛剛,蘋果春季新品發佈第二彈正式揭曉:兩款Mac筆電晶片:M5 Pro和M5 Max;兩款新電腦:蘋果MacBook Pro、MacBook Air;兩台新顯示器:Studio Display、Studio Display XDR;沒錯,庫克一口氣端上來6款重磅新品,各個都看點十足。作為地表最強PC筆電晶片,M5 Pro和M5 Max的CPU、GPU都有大幅性能升級,基於新融合架構“拼好芯”,蘋果將兩顆3奈米晶粒合二為一,與其他模組共同構成SoC,兼顧高頻寬和低延遲。兩顆晶片的每個GPU核心都塞入了神經網路處理器,加上統一記憶體性能的提升,M5 Max的AI峰值性能相比上代暴漲了4倍。比如在AI圖像生成任務中,搭載M5 Max的MacBook Pro比上代快了近4倍,在大語言模型提示詞處理、AI視訊處理方面也有數倍提升。AI,毫無疑問是兩顆晶片升級到重點。蘋果特別提到,他們“從頭到尾打造晶片都是為AI精心建構”。基於這兩顆晶片打造的新款MacBook Pro不僅有著Mac筆電史上最長的24小時續航、翻倍的固態硬碟速度,針對各類AI任務的處理速度都有大幅提升。相比之下,搭載M5晶片的MacBook Air就沒有太多升級點,輕薄、價格更低依舊是其核心優勢。兩款顯示器的升級重點一個是畫質,一個是介面擴展性,兩者均為27英吋5K解析度,蘋果稱之為“視網膜級”顯示,畫面非常細膩。兩者螢幕技術均為Mini LED,但XDR版有2304個分區並支援120Hz高刷,標準版只有60Hz。▲Studio Display XDR此次兩台顯示器的HDR峰值亮度升級到了2000nit;介面方面,兩款顯示器都支援最多6台串聯,顯示6000萬像素圖像。價格方面,14英吋搭載新M5 Pro的MacBook Pro起售價為17999元,儲存為24GB+1TB起步,如果是16英吋M5 Max版全部“拉滿”,總價最高在64719元,當然,這包含了兩款軟體和Apple Care服務,去除後大約58124元。即使是17999元的起售價,相比上代同儲存規格M4 Pro版MacBook Pro發售時的15699元,也漲了2300元左右。MacBook Air是16GB+512GB儲存規格起步,13英吋售價8499元起,上代同規格M4版MacBook Air售價9499元,下降了1000元。但值得注意的是,新款MacBook Pro和MacBook Air的起步固態硬碟規格都漲了,Pro從512GB漲到了1TB,Air從256GB漲到了512GB。哦對了,蘋果生怕你不知道該不該升級、提升大不大,所以貼心的為你放上了“比一比”,但其中只有M2及以前的老機型,甚至還有英特爾處理器的機型對比。使用者心理拿捏這塊,庫克是懂得。兩款顯示器,Studio Display起售價為11999元,Studio Display XDR起售價為24999元,Nano-texture奈米紋理螢幕玻璃版本售價27499元。好傢伙,“一層膜”2500元,果然夠蘋果。所有新品都是3月4日開始預購,3月11日正式發售。01.晶片封裝黑科技加持單線程王者依舊,AI能力大提升作為M5系列的兩款新品,M5 Pro和M5 Max的GPU同樣加入了神經網路加速器,與M5相同,因此這兩款晶片的AI性能也進行了重點升級。蘋果稱這兩款晶片使用了他們設計的新融合架構:將兩顆晶粒結合為一個單片系統(SoC),也就是我們在Ultra上曾見到過的“拼好芯”,也是業內目前稱之為“Chiplet”的熱門晶片封裝工藝。這一工藝兼顧高頻寬、低延遲,將兩顆第三代3奈米晶粒合二為一。兩顆晶粒集CPU、GPU、媒體處理引擎、統一記憶體控製器、神經網路引擎和雷靂5控製器於一體。M5 Pro和M5 Max的CPU均為18核,包括6顆性能較高的“超級核心”和12顆針對高能效、多線程工作負載最佳化的性能核心。因此也可以說是“全大核”架構。根據蘋果官網資訊,18核CPU專業工作複雜處理性能最高提升30%。蘋果特別提到,CPU的單線程性能首屈一指,這部分得益於更高的前端頻寬、新快取結構和強化的分支預測技術。GPU方面,M5 Pro和M5 Max有較大差異。M5 Max的GPU最多支援40顆核心,每個核心裡都有神經網路加速器,GPU配備了更高的統一記憶體頻寬,處理AI任務的峰值GPU計算性能相比前代機型提升了4倍。圖形性能方面,對於使用光線追蹤的App,GPU性能相較M4 Pro和M4 Max提升最高可達35%。M5 Pro的GPU為20核,僅有Max版的一半,處理AI任務時的峰值GPU計算性能相比M4 Pro提升超過4倍。其他方面,M5 Pro和M5 Max都整合了16核NPU,安全性方面,支援Memory Integrity Enforcement,蘋果稱這是一項行業首創的記憶體安全保護功能。蘋果硬體技術高級副總裁,我們的老熟人Johny Srouji稱,M5 Pro和M5 Max代表了蘋果晶片的里程碑式提升,MacBook Pro性能、能效和裝置端 AI 處理能力的大幅提升都離不開兩顆晶片的升級。▲在Xcode等App中加速程式碼編譯和裝置端智能體程式設計02.史上續航最長的Mac筆電AI和專業生產力是重頭戲新款MacBook Pro的晶片有M5、M5 Pro和M5 Max三個版本,AI能力有重點增強。蘋果稱這是史上續航最長的Mac筆電,最長可達24小時,並且快充只需要30分鐘就能充50%電量。14英吋機型可選配M5、M5 Pro或M5 Max晶片,16英吋機型可選配M5 Pro或M5 Max晶片。M5 Max晶片的GPU還分為32核和40核不同版本,庫克這刀法,真的切麻了。儲存方面,MacBook Pro的固態硬碟速度最高提升了2倍。新款MacBook Pro的讀寫性能峰值速度為14.5GB/s,在處理4K與8K視訊項目、大語言模型和複雜資料集等任務工作流時能提高效率。此外,MacBook Pro搭載了N1晶片,支援Wi-Fi 7和藍牙6。蘋果特別提到,M5系列晶片的GPU內都有神經網路加速器,對基於擴散模型生成圖像、大語言模型提示詞處理,裝置端Transformer模型訓練等各類AI任務的處理速度都有大幅提升。在蘋果看來,M5 Max是其為專業級Mac筆電打造的最強晶片,目標使用者是3D特效藝術家、AI開發者和電影作曲家。蘋果強調稱,蘋果晶片以及驅動它的每個重要子系統,都是圍繞AI所設計,“從頭到尾打造晶片都是為AI精心建構”,其優勢在於整合硬體、軟體和生態系統。在官網案例中,蘋果提到了Msty Studio、LM Studio這些大語言模型App,App中的AI工具也可以在晶片加持下獲得更好體驗,比如Logic Pro中的大分軌拆分器AI功能。▲AI圖像、音訊處理提到AI處理能力提升,統一記憶體的升級也發揮了作用,M5 Pro支援最高307GB/s記憶體頻寬,M5 Max則支援最高614GB/s記憶體頻寬。在很多高端PC筆記型電腦都升級了OLED螢幕的今天,蘋果頂級MacBook Pro仍然採用了一塊LCD螢幕,當然,這塊螢幕的素質沒得說,與上代參數基本看齊,不過“昏暗環境亮度可降到1尼特”算是蘋果在護眼方面的一點升級。MacBook Pro的介面依然豐富,配備了三個雷靂4或雷靂5連接埠、一個HDMI連接埠、一個MagSafe 3連接埠、一個SDXC卡插槽和一個耳機插孔。電腦手機互聯方面,iPhone鏡像、即時活動、通用剪貼簿、電話App、接力都是我們很熟的功能了,不做贅述。相比MacBook Pro,MacBook Air的配置相對簡單,晶片只有M5一個版本,續航最長18小時。在核心的輕薄方面,13英吋的MacBook Air重量為1.23千克,厚度不到1.2釐米,另外還有15英吋的版本。在MacBook Air部分,蘋果依然強調了AI能力的提升,當然,與Pro相比會少一些專業軟體的介紹。03.“視網膜”級顯示器來了連接擴展性大提升除了兩款新MacBook,蘋果這次上架的兩款“專業”顯示器同樣可圈可點。27英吋的Studio Display有著5K解析度(5120x2880),是一款Mini LED顯示器,峰值亮度從此前蘋果“祖傳”的1600nit升級到2000nit,更新頻率為120Hz。今年新iPhone 18系列的螢幕峰值亮度或許也會同步提升至2000nit。Studio Display XDR同樣為27英吋5K解析度的Mini LED顯示器,調光分區增加到2304個,HDR峰值亮度同樣升級到了2000nit。5K解析度總共有1400多萬個像素,在27吋的尺寸下,蘋果稱之為“視網膜螢幕”。兩台顯示器都配備了1200萬像素攝影機,支援人物居中跟蹤。介面方面,兩款顯示器都新增了雷靂5連接能力,總共提供2個連接埠,可以最多同時串聯4台Studio Display顯示器,實現接近6000萬像素的畫面顯示。在專業性方面,Studio Display XDR在P3廣色域之外新增了對Adobe RGB色域的支援,可以說是一款校準參考顯示器,對印刷設計類專業人士是一大利多。04.結語:軟硬一體協同仍是蘋果AI時代王牌此次蘋果祭出的兩款王炸晶片,以及基於晶片升級的新款Mac筆電,都花了不少篇幅提及AI方面的能力提升,以及在各類端側AI應用方面的流暢表現,可以看到,蘋果對AI是非常重視的,而晶片層的支援則成為蘋果產品的獨特優勢——軟硬協同一體。面向未來的AI大戰,蘋果智能在國內的落地備受關注,3月4日蘋果會在上海的活動中放出怎樣的驚喜,我們拭目以待。 (智東西)